Nettoyage des données XML : combien ça coûte ?

نویسنده

  • Laure Berti-Équille
چکیده

Résumé. L'objectif de cet article est de présenter un travail en cours qui consiste à proposer, implanter et valider expérimentalement un modèle pour estimer le coût d’un processus de nettoyage de documents XML. Notre approche de calcul de coût est basée sur une méthode par calibration selon une analyse probabiliste. Pour cela, nous proposons de calculer des probabilités de pollution et au préalable de détection des différents types de pollutions. Pour valider notre modèle, nous avons choisi de polluer artificiellement une collection de données XML avec l'ensemble des types d'erreurs possibles (erreurs typographiques, ajout de doublons, de valeurs manquantes, tronquées, censurées, etc.) et d'estimer, grâce au modèle proposé, le nombre et le coût des opérations nécessaires au nettoyage des données afin de proposer des stratégies de réparation ciblées et économes. Les expérimentations en cours ne sont pas rapportées dans cet article.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Détection de clefs pour l'interconnexion et le nettoyage de jeux de données

Résumé : Cet article propose une méthode d’analyse de jeux de données du Web publiés en RDF basée sur les dépendances de clefs. Ce type particulier de dépendances fonctionnelles, largement étudié dans la théorie des bases de données, permet d’évaluer si un ensemble de propriétés constitue une clef pour l’ensemble de données considéré. Si c’est le cas, il n’y aura alors pas deux instances posséd...

متن کامل

ESIEA Datalab Logiciel de Nettoyage et Préparation de Données

Il est communément admis que le temps de préparation des données peut occuper jusqu’à 80% du temps lors d’un projet industriel de fouille de données (Pyle, 1999). L’hétérogénéité des sources, la présence de valeurs manquantes, les erreurs de saisie ou de calcul, les pannes de capteurs, une mauvaise fusion de données sont autant de causes qui peuvent introduire erreurs et incohérences dans une t...

متن کامل

Du XML au multidimensionnel : Conception de magasins de données

Résumé. Avec l’ouverture des entreprises sur l’Internet, les sources de données englobent davantage des données échangées avec les partenaires et/ou issues du Web. Dans ce cadre organisationnel ouvert, les documents XML constituent des sources de données plus utilisées aussi bien pour le stockage que pour les échanges transactionnels. Ce nouveau format de données a motivé des propositions de mo...

متن کامل

Nettoyage de données guidé par la sémantique inter-colonnes

De nos jours, il est intéressant de développer de nouveaux outils d’intégration et de manipulation de données (ETL) afin d’aider à mieux comprendre la sémantique et la structure des données manipulées Boufarès et al. (2013), Ben Salem (2015). Nous réalisons ce travail en collaboration avec la société Talend (éditeur d’un ETL). La première partie du projet a traité des anomalies inter-lignes une...

متن کامل

Fragmentation des entrepôts de données XML

Résumé. Les entrepôts de données XML proposent une base intéressante pour les applications décisionnelles qui exploitent des données hétérogènes et provenant de sources multiples. Cependant, les performances des SGBD natifs XML étant actuellement limitées en termes de temps de réponse et de volume des données, il est nécessaire de trouver des moyens pour les optimiser. Dans cet article, nous pr...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2005